小红书开源首款多模态模型网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>产业数字化>小红书开源首款多模态模型

小红书开源首款多模态模型

作者：来源：网经社发布时间：2025年08月08日 09:27:28

(网经社讯)8月7日消息，小红书hi lab（人文智能实验室）开源了其首款多模态大模型dots.vlm1，这一模型基于DeepSeek V3打造，并配备了由小红书自研的12亿参数视觉编码器NaViT，具备多模态理解与推理能力。

在主要的视觉评测集上，dots.vlm1的整体表现已接近当前领先模型，如Gemini 2.5 Pro与Seed-VL1.5 thinking，尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中显示出较强的图文理解与推理能力。

据网经社云计算台（CC.100EC.CN）了解，这一模型可以看懂复杂的图文交错图表，理解表情包背后的含义，分析两款产品的配料表差异，还能判断博物馆中文物、画作的名称和背景信息。

在主流视觉评测数据集上，dots.vlm1的整体性能已逼近当前处于领先地位的Gemini2.5Pro和Seed-VL1.5thinking模型。特别是在MMMU、MathVision、OCRReasoning等多个基准测试中，它展现出极具竞争力的成果，充分彰显了其出色的图文理解与推理能力。

在AIME、GPQA、LiveCodeBench等典型文本推理任务中，dots.vlm1的表现与DeepSeek-R1-0528大致相当。这表明它在数学和代码能力方面已具备一定的通用性，但在GPQA等涵盖范围更广的推理任务上，仍存在明显差距。

综合而言，dots.vlm1在视觉多模态能力上已接近当前最佳水平，文本推理能力也达到了主流模型的标准。不过，在部分细分任务中，它与最优结果仍有一定距离，未来还需在架构设计和训练数据两方面进行进一步优化。

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。